Kepentingan Logis dalam Validasi
Inferensi statistik secara inheren bersyarat. Setiap kesimpulan yang kita tarik tentang parameter $\theta$ secara ketat tergantung pada asumsi bahwa data yang diamati $s$ dihasilkan oleh suatu distribusi dalam model hipotesis kita $\mathcal{M} = \{P_\theta : \theta \in \Theta\}$.
Estimasi: Mengasumsikan $P_{true} \in \mathcal{M}$ dan mencari "terbaik" $\theta$ (misalnya, MLE $\hat{\theta}$). Ini beroperasi di dalam model.
Pemeriksaan Model: Melembutkan asumsi bahwa model benar. Ini menanyakan apakah setiap $\theta \in \Theta$ dapat menjelaskan pola-pola dalam data. Ini beroperasi pada model.
Krisis Relevansi (Lubang Jebakan)
Jika distribusi sejati yang menghasilkan data berada di luar model statistik $\mathcal{M}$, maka $\theta$ kehilangan makna ilmiahnya. Kita jatuh ke dalam lubang jebakan statistik: relevansi dari inferensi selanjutnya menjadi dipertanyakan. Kita pada dasarnya menghitung sifat-sifat fiksi matematis bukan realitas fisik.
Contoh 9.1.1: Model Normal Lokasi
Pertimbangkan kasus paling sederhana di mana kita mengasumsikan $X_i \sim N(\theta, 1)$.
Kami menghitung rata-rata sampel $\bar{x}$. Dalam model Normal, $\bar{x}$ adalah perkiraan optimal untuk 'pusat' data.
Misalkan data sebenarnya mengandung outlier ekstrem atau mengikuti distribusi dengan ekor tebal distribusi Cauchy. Meskipun kita masih bisa menghitung $\bar{x}$ secara mekanis, itu tidak lagi mewakili pusat distribusi secara bermakna. Interval kepercayaan kita akan sangat sempit, mengarah pada kepastian palsu karena model Normal tidak valid.